最新综述:自动驾驶中的多模态三维目标检测
©PaperWeekly 原创 · 作者 | 张一帆
学校 | 华南理工大学本科生
研究方向 | CV,Causality
Abstract
在过去几年,自动驾驶取得了蓬勃的发展,但是由于驾驶环境的复杂多变,实现完全自动依然是一个非常艰巨的任务。自动驾驶汽车往往配备了一系列复杂的传感器来进行准确、稳健的环境感知。这大量的类型不同的传感器如何互补,融合来促进感知依然是一个有待研究的问题。
本文致力于回顾最近的基于融合的 3D 检测深度学习模型,这些模型有一个共同的特点:多个传感器数据源,比如摄像机和激光雷达。本文首先介绍了各种常见传感器的背景和通用数据表示,以及针对每种传感器数据开发的目标检测网络。然后,本文讨论了一些用于多模态 3D 目标检测的流行数据集,特别关注数据集中的传感器数据。
论文标题:
Multi-Modal 3D Object Detection in Autonomous Driving: a Survey
论文作者:
Yingjie Wang, Qiuyu Mao, Hanqi Zhu, Yu Zhang, Jianmin Ji, Yanyong Zhang
论文链接:
https://arxiv.org/abs/2106.12735
Introduction
物体检测即检测物体的位置与类别,2D 目标检测已经发展的很成熟了,但是 2D 并不能给自动驾驶提供足够的信息,只能标注一个框和类别的置信度。在 3D 物体检测任务中,需要更多的输出参数来指定物体周围的边界框。
2.1.2 3D Object Detection Using LiDARs
目前 LiDARs 还没有被自动驾驶广泛采用,主要原因如下:
激光雷达既昂贵又笨重,尤其是与照相机相比; 激光雷达捕获的点云分辨率较低(16~128通道),刷新率较低,不能满足实时检测的要求; 激光雷达的工作距离相当有限,远离激光雷达的点云非常稀疏; 激光雷达在极端恶劣的天气条件下不能正常工作,如大雨或大雪,因为激光的传输距离受到很大的影响。
2.1.3 3D Object Detection Using Other Sensors.
相比于相机和雷达,有一些传感器对环境更为鲁棒,比如毫米波雷达和红外摄像机。毫米波雷达通过多普勒效应来测量速度,提供对周围环境的远距离和精确测量。它们比激光雷达便宜很多,可以抵抗恶劣的天气条件,对照明变化也不敏感。
然而,与其他两种传感器相比,包含毫米波雷达数据的大规模公共数据集有限。此外,由于毫米波雷达的低分辨率和高高光性,很难获得上下文或感知信息,不能直接检测物体的形状。与激光雷达和相机相比,毫米波雷达识别物体的能力相对较差。
在现实的自动驾驶情况下,通过单一类型的传感器进行目标检测是远远不够的。首先,每种传感器都有其固有的缺点。例如,只使用相机很可能遭受物体遮挡;与图像相比,激光雷达的输入数据分辨率较低,特别是在远距离时,这一问题阻碍了激光雷达的应用。
为了缓解这些问题,许多基于融合的三维检测方案已经被提出来了。在这些方法中,来自具有互补特性的多种类型传感器的数据被用来提高性能和降低成本。虽然传感器融合带来了好处,但进行高效的融合对底层系统设计提出了严峻的挑战。
多传感器校准和数据对齐:由于多模态数据的异质性(如表 1 所示),无论是在原始输入空间还是在特征空间,都很难对它们进行精确对齐。
信息丢失:为了将传感器数据转换成能够以计算成本进行对齐和处理的格式,信息丢失是不可避免的
跨模态数据增强:数据增强在三维目标检测中起着至关重要的作用,可以减少模型过拟合,这种过拟合通常是由训练数据不足引起的。全局旋转和随机翻转等增强策略在单模态融合方法中得到了广泛的应用,但由于多传感器一致性的问题,在许多多传感器融合方法中缺乏这种方法。 数据集和评测标准:高质量、公共可用的多模态数据集数量有限。即使是现有的数据集也存在规模小、类别不平衡、标记错误等问题。此外,目前还没有针对数据集的指标来具体评估多传感器融合的有效性,这给多传感器融合方法之间的比较带来了困难。
综上所述,传感器融合已成为感知子系统实现满意性能的必要模块,但在真正享受其带来的好处之前,还需要解决许多设计和实现上的挑战。为了实现这一目标,本文开始对最近基于融合的 3D 目标检测方法进行系统的回顾。这样的回顾可以帮助确定传感器融合中的技术挑战,并帮助我们比较和对比各种模型提出的解决方案。特别是,由于摄像头和激光雷达是自动驾驶中最常见的传感器,该综述主要关注这两种传感器数据的融合。
之前关于基于深度学习的多模态融合方法的调查涵盖了大量的传感器,包括雷达,摄像头,激光雷达,超声波传感器等,并提供了一个简短的综述,包括多目标检测,跟踪,环境重建等广泛的主题。本综述具有明显不同的目的:它针对的是想仔细研究多模态 3D 检测领域的研究人员,本文的贡献总结如下:
根据输入传感器数据的不同组合,本文回顾了基于多模态的三维目标检测方法。特别是距离图像,它是激光雷达点云的一种信息完整形式,在过去的综述文章中没有被讨论。此外,伪激光雷达(由相机图像生成)的表示也没有讨论; 本文从多个角度仔细研究了基于多模态的三维目标检测策略的发展。特别关注这些方法如何实现跨模式数据对齐、如何减少信息丢失等关键问题; 本文详细讨论了最近的相机-激光雷达融合检测方法。同时还总结了近年来可用于三维目标检测的多模态数据集; 仔细讨论了一些具有挑战性的问题以及可能的解决方案,以期对未来的研究有所启发。
Conclusion
由于三维视觉在自动驾驶等应用中的重要性日益增加,本文调研了近年来的多模态三维目标检测网络,特别是相机图像和激光雷达点云的融合。首先作者仔细比较了常用的传感器,讨论了它们的优缺点,总结了单模态方法的常见问题。然后,本文提供了几个常用的自动驾驶数据集。
特别鸣谢
感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。